高质量数据是现代机器学习的关键方面。但是,人类产生的标签遭受了标签噪声和阶级歧义等问题。我们提出了一个问题,即硬标签是否足以在存在这些固有的不精确的情况下代表基本的地面真相分布。因此,我们将学习的差异与硬和软标签进行定量和定性,以获取合成和现实世界数据集。我们表明,软标签的应用可改善性能,并产生内部特征空间的更常规结构。
translated by 谷歌翻译
高质量数据对于现代机器学习是必需的。但是,由于人类的嘈杂和模棱两可的注释,难以获取此类数据。确定图像标签的这种注释的聚合导致数据质量较低。我们提出了一个以数据为中心的图像分类基准,该基准具有9个现实世界数据集和每个图像的多次注释,以调查和量化此类数据质量问题的影响。我们通过询问如何提高数据质量来关注以数据为中心的观点。在数千个实验中,我们表明多个注释可以更好地近似实际的基础类别分布。我们确定硬标签无法捕获数据的歧义,这可能会导致过度自信模型的常见问题。根据呈现的数据集,基准基准和分析,我们为未来创造了多个研究机会。
translated by 谷歌翻译
由于大量学生参加了大规模开放的在线课程(MOOC),因此越来越多的自动化程序维修技术集中在入门编程任务(IPA)上。这种最先进的技术使用程序聚类来利用以前的正确学生实现来修复给定的新不正确提交。通常,这些维修技术使用聚类方法,因为分析了所有可用的正确学生提交以维修程序是不可行的。聚类方法使用基于几个功能的程序表示,例如抽象语法树(AST),语法,控制流和数据流。但是,在表示语义上相似的程序时,这些功能有时会变得脆弱。本文提出了InvaastCluster,这是一种用于程序群集的新方法,它利用了在几个程序执行中观察到的动态生成的程序不变性,以群群群集在语义上等效的IPA。我们的主要目的是通过其不变性及其结构通过其匿名抽象语法树来找到程序的语义结合及其结构的组合。 InvaastCluster的评估表明,在聚集一组不同的正确IPA时,建议的程序表示法优于基于语法的表示。此外,我们将InvaastCluster集成到基于最新的聚类的程序维修工具中,并在一组IPA上进行评估。我们的结果表明,InvaastCluster通过在较短的时间内修复大量学生的程序来使用基于聚类的程序维修工具使用时的当前最新设备。
translated by 谷歌翻译
由于大量学生参加了大规模开放的在线课程(MOOC),因此越来越多的自动化程序维修技术集中在入门编程任务(IPA)上。这样的技术利用了以前的正确学生实施,以向学生提供自动化,全面和个性化的反馈。本文介绍了C-Pack-IPA,这是针对25种不同IPA提交的学生课程的公开基准。C-Pack-IPA包含语义上正确的,语义上不正确且语法上不正确的程序以及每个IPA的测试套件。因此,C-Pack-IPA可用于帮助评估新颖语义的发展以及句法,自动化程序修复框架,重点是向新手程序员提供反馈。
translated by 谷歌翻译
总变化(TV)流产生了基于电视功能的图像的比例空间表示。该梯度流观察到图像的理想特征,例如锋利的边缘和启用光谱,比例和纹理分析。电视流的标准数值方法需要解决多个非平滑优化问题。即使采用最先进的凸优化技术,这通常也很昂贵,并且强烈激励使用替代,更快的方法。受到物理信息神经网络(PINN)的框架的启发,我们提出了TVFlownet,这是一种神经网络方法,以计算给定初始图像和时间实例的电视流的解决方案。我们大大将计算时间加快了一个以上的数量级,并表明TVFlownet具有高保真度近似电视流解决方案。这是一份初步报告,将有更多详细信息。
translated by 谷歌翻译
在测试时间缺失模态的多模式数据的学习表示,由于从不同渠道获得的数据的固有异质性,这是一个具有挑战性的问题。为了解决这个问题,我们提出了一种新型的几何多模式对比度(GMC)表示方法,该学习方法由两个主要组成部分组成:i)由特定于模态的基础编码器组成的两级体系结构,允许处理任意数量的模态,以使中间表示形式固定维度和共享投影头,将中间表示形式映射到潜在的表示空间; ii)一种多模式对比损失函数,鼓励学习表示的几何对齐。我们通过实验表明,GMC表示在语义上是丰富的,并实现了最先进的表现,而缺少有关三种不同学习问题的模式信息,包括预测和强化学习任务。
translated by 谷歌翻译
梯度增强的树木是竞争获奖,通用,非参数回归器,它们利用顺序模型拟合和梯度下降以最大程度地减少特定的损失函数。最受欢迎的实现是针对单变量回归和分类任务量身定制的,排除了捕获多变量目标互相关并将结构性惩罚应用于预测的可能性。在本文中,我们提出了一种用于拟合多元增强树的计算有效算法。我们表明,当预测相关时,多元树可以胜过单变量。此外,该算法允许任意规范预测,以便可以实施平滑度,一致性和功能关系之类的属性。我们提出了与预测和控制有关的应用程序和数值结果。
translated by 谷歌翻译